# -*- coding:utf-8 -*-
import re

# 匹配电话号码
# var1 = "123-4456781290"
#
#
# r1 = re.search(r"\d{3}-\d{5,6}", var1).group()
# print(r1)


html_data = "<ul><li>宝马</li><li>奔驰</li><li>奥迪</li><li>大众</li> </ul>"


# 贪婪.* 尽可能多的去匹配
# （）组代表要匹配的内容
# 贪婪匹配：从第一个<li>开始，到最后一个</li>结束
r1 = re.search(r"<li>(.*)</li>", html_data).group()


# 只获取组里面的内容
r2 = re.search(r"<li>(.*)</li>", html_data).group(1)
print(r1)
print(r2)


# 非贪婪.* ？尽可能少的去匹配
# 非贪婪匹配：从第一个<li>开始，到第一个</li>结束
r3 = re.search(r"<li>.*?</li>", html_data).group()      # 没有加括号，不能用group(1)获取
r4 = re.search(r"<li>(.*?)</li>", html_data).group(1)   # 直接 获取到宝马


# 在findall当中，如果有组(), 他只会获取组里面的内容
r5 = re.findall(r"<li>(.*?)</li>", html_data)
print(r5)


"""
xpath
    路径表达式 -- 从唯一父标签开始查找
    当标签没有固定属性的时候使用
    
    
bs4 
    抓取静态图片
    如果寻找的标签有唯一的属性
    寻找的多个标签有共同属性
    <tr>宝马</tr><tr>奔驰</tr><tr>奥迪</tr>
    A.宝马
    B.宝马</tr><tr>奔驰</tr><tr>奥迪
    re.search("<tr>(.*)</tr>").group(1) 
"""